Estructuras latentes compartidas para detectar puertas traseras en LLMs
Descubre cómo las estructuras latentes compartidas en LLMs permiten detectar y mitigar ataques de puerta trasera unificada. Un avance en seguridad de IA.
Descubre cómo las estructuras latentes compartidas en LLMs permiten detectar y mitigar ataques de puerta trasera unificada. Un avance en seguridad de IA.
Aprende cómo ProGenMech descubre circuitos neuronales en modelos de proteínas para mejorar la generación y predicción de fitness.
Descubre cómo los autoencoders dispersos revelan patrones visuales en aeronaves, mejorando la interpretabilidad de modelos de IA.
La puntuación coseno en autoencoders dispersos mejora la detección de características al evitar inflación de norma, logrando conceptos humanos.
Descubre cómo los CSAEs aprenden conceptos visuales jerárquicos en MLLMs, mejorando la interpretabilidad y permitiendo intervenciones grupales.
Descubre cómo CBMs y SAEs se unifican con conos de conceptos. Aprende métricas para alinear conceptos supervisados y emergentes.
Descubre cómo un pequeño cuello de botella de rango reducido reduce los latentes densos en autoencoders dispersos y mejora la interpretabilidad.
Un nuevo estudio descubre que las activaciones contienen un componente denso y causal, reduciendo latentes densos un 84% en autoencoders dispersos. Descubre el andamio computacional.
Ensamblaje de SAEs: mejora reconstrucción y estabilidad. Logra mejores resultados en detección de conceptos y elimina correlaciones espurias. Ideal para IA.
Los métodos de interpretabilidad (SAEs, sondas) buscan separar conceptos, pero manipular características afecta múltiples conceptos, desafiando la independencia
Descubre cómo las neuronas MLP son tan dispersas como los autoencoders dispersos, permitiendo trazar circuitos causales en modelos de lenguaje sin coste adicional de entrenamiento.
CLVQ-VAE logra interpretar modelos de lenguaje con precisión humana del 78% y elimina conceptos clave reduciendo la precisión hasta un 93%. ¡Descúbrelo!
Descubre cómo ICALens usa ICA para encontrar direcciones interpretables en LLMs sin entrenar diccionarios, superando a los SAEs en eficiencia y sondas.
Descubre cómo las características inestables en autoencoders dispersos no son ruido, sino parte de subespacios reproducibles. Un estudio clave para la interpretabilidad de redes neuronales.
Descubrimos cómo seis algoritmos de alineación (PPO, DPO, SimPO, ORPO, GRPO, KTO) transforman internamente los modelos. Implicaciones para seguridad.
Descubre cómo medir interacciones entre características de crosscoders mejora la reconstrucción, logra dispersión computacional y detecta agentes durmientes.
Aprende cómo los autoencoders dispersos permiten interpretar y controlar un modelo de texto a voz: desde risas hasta género y velocidad.
Descubre cómo VFUSE utiliza autoencoders dispersos para detectar características virulentas en modelos de proteínas, mejorando la seguridad en el diseño.
Aprende a predecir los efectos secundarios del steering con autoencoders dispersos. Un estudio en GPT-2, Pythia, Gemma y Llama para optimizar tu intervención.
Descubre Query Lens, un nuevo método que va más allá de Logit Lens para interpretar características de autoencoders dispersos, considerando efectos indirectos y la hipótesis del subespacio.